Classification d'un tableau de contingence et modèle probabiliste
نویسندگان
چکیده
Résumé. Ces dernières années, la classification croisée ou classification par blocs, c’est-à-dire la recherche simultanée d’une partition des lignes et d’une partition des colonnes d’un tableau de données, est devenue un outil très utilisé en fouille de données. Dans ce domaine, l’information se présente souvent sous forme de tableaux de contingence ou tableaux de co-occurrence croisant les modalités de deux variables qualitatives. Dans cet article, nous étudions le problème de la classification croisée de ce type de données en nous appuyant sur un modèle de mélange probabiliste. En utilisant l’approche vraisemblance classifiante, nous proposons un algorithme de classification croisée basé sur la maximisation alternée de la vraisemblance associée à deux mélanges multinomiaux classiques et nous montrons alors que sous certaines contraintes restrictives, on retrouve les critères du Chi2 et de l’information mutuelle. Des résultats sur des données simulées et des données réelles illustrent et confirment l’efficacité et l’intérêt de cette approche.
منابع مشابه
Classification topologique probabiliste pour des données catégorielles
Cet article présente une carte auto-organisatrice probabiliste pour l’analyse et la classification topologique des données catégorielles. En considérant un modèle de mélanges parcimonieux nous introduisons une nouvelle carte auto-organisatrice (SOM) probabiliste. L’estimation des paramètres de notre modèle est réalisée à l’aide de l’algorithme EM classique. Contrairement à SOM, l’algorithme d’a...
متن کاملModèles de mélanges topologiques pour la classification de données catégorielles et mixtes
Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...
متن کاملD'une compacité positionnelle à une compacité probabiliste pour un système de Questions / Réponses
RÉSUMÉ. Dans cet article, nous présentons une discussion sur la définition d'un score de compacité pour permettre l'extraction d'une réponse dans un système de Questions/Réponses. Ce score de compacité qui peut être succinctement décrit comme une fonction liée a la densité des termes de la question dans le voisinage d'une réponse candidate, est présenté en détail. Ensuite, une discussion nous a...
متن کاملEvaluation modulaire d'un système de questions-réponses sur un corpus de questions semi-spontanées
RÉSUMÉ. Cet article présente une évaluation séquentielle du système de questions-réponses modulaire et stochastique SQuALIA. L’évaluation se fonde sur un corpus de question semispontanées obtenu en faisant poser 20 questions de référence à des adultes francophones, non francophones ou dyslexiques. Les expériences montrent que ce sont les fautes d’orthographe qui ont le plus d’impact sur les mod...
متن کاملIntégration de la structure dans un modèle probabiliste de documents
Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont ...
متن کامل